英文出处：https://medium.com/@ageitgey/machine-learning-is-fun-part-3-deep-learning-and-convolutional-neural-networks-f40359318721#.ez3em55bo

你是否已经厌倦了阅读无休止的深度学习的文章，却不知道其真正含义？让我们改变这种窘境！。

这一次，我们将学习如何编写程序，运用深度学习去识别图像中的对象。换句话说，我们将向你解释Google Photos是如何通过照片本身来找到正是你需要照片，这种黑魔法的神奇：

正如Part1和Part2所述，本文是为了那些对机器学习充满好奇，而又无从下手的人准备的。

深度学习的目标识别

你可能之前已经看过著名的xkcd漫画。

一个3岁的小孩可以识别出照片上的一只鸟，但是怎样让计算机识别目标困恼了科学家50年，即便是最优秀的计算机领域的专家。

在过去的几年里，我们终于找到一种很好的方法来识别目标物体，即深度卷积神经网络。这提起来像是威廉吉布森小说里一个词一个词组合而成，但是其思想完全可以有单独的词来理解。

让我写一个程序来识别这些可爱的鸟吧！

从简单地开始

在我们学习如何识别鸟类图片之前，我们先学习识别一些更简单的——比如手写的数字“8”。

在Part2，我们学习神经网络是把许许多多简单的神经元连接在一起，能够解决很多复杂度的问题。在卧室个数，面积，和所在区域这些影响因素的基础上，我们创建了一个小的神经网络来估算房屋的价格：

我们都知道机器学习的精髓，就是相同的泛型算法可以重复使用不同的数据来解决不同的问题。所以我们可以修改同样的神经网络来识别手写文本。但是为了让这项工作更简单，我们就只是识别一个字符——数字”8“。

当你有数据的时候，机器学习才能有效——最好是大量的数据。所以我们需要很多很多的手写体”8“，才能开始训练。幸运的是，研究者创建了MNIST数据库，专门是为手写数字准备的数据集。MNIST提供60,000张手写体图片，每一张大小18x18。这里截出一些”8“的图片：

其实想一想，一切都是数字

在Part2中，我们仅采用3个数字作为神经网络的输入（3间卧室，2000平方英尺等）。但是现在我们想要用同样的神经网络来处理图片。问题来了，怎样把图片塞进神经网络里面而不是简单的几个数字？

答案是难以置信的简单。神经网络以数字作为输入。对计算机而言，一张图片其实是数字组成的网格，这些数字代表每个像素是有多黑：

一张图片如何输入到我们的神经网络，只要简单的把18x18的图片看成324个数字的数组：

为了处理这324个输入，我们只要扩大我们的神经网络到324个输入节点：

值得注意的是，我们的神经网络也有两个输出（而不是一个）。第一个输出表述预测是图像”8“的可能性，第二个表示预测不是图像”8“的可能性。通过分开不同物体类型的输出，我们也可以使用神经网络把物体分类到不同组别。

我们的神经网络已经比上次大得多（324的输入而不是3的！）。不用担心，现代计算机可以处理几百个节点的神经网络。这甚至能在你的手机上运行。

剩下的工作就是用”8“的图片和不是”8“的图片来训练你的神经网络。当你输入一张”8“的图片，我们会告诉神经网络这张是”8“的可能性是100%，不是”8“的可能性是0%。反之，亦然。

这里是一些我们用于训练的数据：

在现代笔记本上，我们可以在几分钟内训练这种神经网络。完成后，我们可以用这个神经网络来识别图像”8“,有相当高的精确度。欢迎来到图像识别的世界！（可追述到1980年）。

致命陷阱

简单的输入像素到神经网络中，真的可以简历图片识别系统！机器学习多么神奇！….对吗？

当然不是那么简单。

首先，好消息是，我们的图像”8“识别模型可以工作的很好，对于那些”8“在图片中央的：

但是，现实往往不是这样：

当字母不在图片中央的时候，我们的”8“识别模型总是失败。只要稍微一点位置变化就毁了一切：

这是因为我们的神经网络模型只学习了中间”8“的模式。非中间”8“的情况，它完全不懂。它只能确定一种模式。

这在现实世界并不是很有用。现实世界的问题从未清晰简单。所以我们需要解决”8“不在中央的情况下，怎么样使得我们的神经网络很好的工作。

暴力法#1：滑动窗口搜索

我们已经创建了一个比较好的程序用于需找图片中央的”8“。如果我们以较小范围扫描整个图片，这个小范围叫做窗口，每次一个窗口，直到找到为止：

这种方法我们称之为滑动窗口，比较蛮力的方法。在有一些限制的情况下，它工作的很好，但不是很有效率。你不得不一遍又一遍检测相同的图像，去寻找不同的尺寸。我们可以做得比这个更好!

暴力法#2：更多的数据和深度神经网络

当我们训练我的的网络模型时，我们只是显示了在图片中央的“8”。那如果我们用更多的数据来训练呢？包括不同大小、不同位置的“8”,又该如何？

我们甚至不需要收集新的训练数据。我们可以写一个脚本用于生成新的图片。“8”在这些图片的不同的位置：

通过这个技术，我们可以轻而易举创造出无限多个的训练数据。

更多的数据使得我们的神经网络要解决的问题更加复杂，但是，我们可以让我们的网络模型变得更大，从而能够学习更多复杂的模式。

为了使我们的网络模型更强大，我们只是把一层一层的节点连接起来：

我们把这个，称之为”深度神经网络“。因为它较之传统的神经网络，有更多的层。

这个想法自1960年代以来，一直存在。直到最近，训练一个大型的神经网络速度太慢，但是非常有用。但是，一旦我们想出怎样使用3D图形显卡（被用作矩阵乘法非常快），而不是平常的计算机处理器，那么大型的神经网络工作就变得非常实用。事实上,NVIDIA GeForce GTX 1080视频卡用作神经网络的训练，速度快得令人难以置信：

即使我们可以使我们的神经网络变得很大，并用3D图形卡快速的训练它，它依然不能一路无阻的给我们一个解决方案。我们需要更加聪明，在用神经网络处理图像的时候。

仔细想一想。分开训练用于识别”8“在图片顶部和在图片底部的两个神经网络，是没有意义的。

应该有一些方法使得神经网络更加聪明，不需要额外的训练，就知道”8“在图片中的任何位置其实是一样的。幸运的是…答案就在这里！

解决方案就是卷积

以人类的视角，你直观地知道一张图片的层次或者概念结构。思考下面这张图片：

地上覆盖着青草和水泥
有一个小孩
小孩坐在木马上
木马放在青草上

重要的是，无论小孩坐在什么上面，我们都可以轻而易举地识别出小孩。我们不需要因为小孩坐在不同的表面上而去重新学习。

但现在，我们的神经网络做不到这样。它认为“8”位于图片不同的部分是完全不同的事情。它完全不理解目标物体在图片上移动并没有发生实质的变化。这就意味着我们的神经网络必须重新学习，在每个位置上识别目标物体。这个很糟糕！

我们需要让我们的神经网络明白平移不变性——“8”就是“8”，无论在图片的什么位置显示。

想要完成这个目的，我们使用一个过程，称之为卷积。卷积的概念一部分是受计算机科学启发，一部分是生物学引导（疯狂的科学家用奇怪的探针刺激猫的大脑，分析猫咪是如何处理图像的）。

卷积如何工作

无论目标物体出现在图像中哪个位置，我们利用它本身的特征做更多聪明的事情。而不是把整张图片作为神经网络的输入。

下面一步一步的展示工作流程——

Step 1：分割图像成重叠的图像块

类似于上面介绍的滑动窗口搜索，在原图上我们每次滑动一次窗口，并保存每个结果作为独立的、小的图像块：

我们把原图分割成了77个同样大小的图像块。

Step 2：把每个小图像块输入小型神经网络

之前，我们把一张图片输入到神经网络中，看图片是不是手写体“8”。这里我们将做同样的事情，仅针对每个独立图像块：

好吧，这里有一个大的迷惑点：在同一张原图上，我们将为每个单独的图像块，保持神经网络权值不变。换句话说，我们会平等对待每个单独的图像块。如果有什么感兴趣的东西在任何一个图像块上，我们将会标记这个图像块。

Step 3：保存每个图像块的结果到新数组

我们不想失去对原图像块的控制。所以我们保存的是处理每个图像块后的结果，按照原图分布保存。就像下面这样：

换句话说，我们从一张大尺寸图像入手，以小型数组结尾。其中这个数组记录着原图中哪些部分是我们最感兴趣的。

Step 4: 减采样

Step 3的结果是一个数组，映射出原图中哪些部分是最感兴趣的。但这个数组还是太大了：

为了降低数组的大小，我们使用一种算法减采样，称之为最大池化。这听起来非常有趣，但实际并不是！

我们会以2x2的方针扫描数组，并拿出最大的哪个数字：

这个想法就是，我们可以在由4个输入图像块组成的2x2方阵中找到一些感兴趣的东西，我们就拿出这些感兴趣的项。这在降低我们数组大小的同时，保持了最重要的项。

Final step：做预测

做到这里，我们已经把一个巨大的图像缩小成了一个相当小的数组。

这个数组只是一堆数字，所以我们可以使用这个小数组作为下一层神经网络的输入。最后一层神经网络将决定这个图像是不是匹配。把这一步与卷积过程区分开来，我们称其为“全连接”。

所以从开始到完成，我们总共5个步骤看起来就像这样：

添加更多的步骤

我们的图像处理过程就是一系列步骤：卷积，最大池化，和全连接。

当处理现实世界的问题的时候，这些步骤可以组合堆叠许多次。只要你想，你可以有2层、3层，甚至10个卷积层。你也可以做池化，在任何你想缩小数据大小的地方。

基本思想就是以一张大尺寸图像开始，继续一步一步的降维，直到你有一个单一的结果。卷积层越多，你的神经网络所能学习去识别的特越复杂。

例如，第一层卷积可以学习识别尖锐的边缘，第二层卷积可以使用尖锐边缘特征识别出喙，第三层卷积可以使用喙特征识别出整个鸟，等等。

这是一个更加现实的深度卷积神经网络（像你找到的某篇论文），如这样：

在这种情况下，以一个224x224大小的图像开始，应用卷积和池化分别两次，接着应用卷积3次，最后应用一次池化和两次全连接。最终的结果就是爱图像被分类到1000个类别中的一种！

构建正确的神经网络

那么，你如何知道哪些步骤，你需要结合起来，使你的图像分类的更好？

说实话，要回答这个问题，你必须做大量的实验和测试。你可能需要训练100个神经网络，然后才能找到你所解决问题的最佳结构和参数。

机器学习涉及到大量的实验和错误！

建立我们鸟类的分类器

现在我们完全可以写一个程序，用来决定一张图片是不是鸟。

一如既往，我们需要一些数据开始。免费的CIFAR10数据集包含6,000张鸟类图片和52,000不是鸟类的图片。但是要获得更多的数据，我们可以加入加州理工学院的 Birds-200–2011的数据集，这里面有另外12,000张鸟类图片。

这里从我们的数据集截取一些鸟类图片：

这里有53,000张非鸟类图片：

这个数据集可以工作的很好，但是72,000张低分辨率图片集对于现实世界来说还是相当小的。如果你想要Google级别的性能，你需要百万数量的图片。在机器学习中，拥有更多的数据对于拥有算法更好的性能至关重要。现在你知道为什么Google这么乐意给你提供没有上限照片存储空间。他们想要你的甜蜜呀，甜蜜的数据！

为了建立我们的分类器，我们使用TFLearn。TFLearn是Google TensorFlow深度学习的开源库，已经有了很简易的API。它使得建立卷积神经网络变得很简单，写几行代码就可以定义我们的网络层。

下面是定义和训练网络模型的代码：

# -*- coding: utf-8 -*-

"""
Based on the tflearn example located here:
https://github.com/tflearn/tflearn/blob/master/examples/images/convnet_cifar10.py
"""
from __future__ import division, print_function, absolute_import

# Import tflearn and some helpers
import tflearn
from tflearn.data_utils import shuffle
from tflearn.layers.core import input_data, dropout, fully_connected
from tflearn.layers.conv import conv_2d, max_pool_2d
from tflearn.layers.estimator import regression
from tflearn.data_preprocessing import ImagePreprocessing
from tflearn.data_augmentation import ImageAugmentation
import pickle

# Load the data set
X, Y, X_test, Y_test = pickle.load(open("full_dataset.pkl", "rb"))

# Shuffle the data
X, Y = shuffle(X, Y)

# Make sure the data is normalized
img_prep = ImagePreprocessing()
img_prep.add_featurewise_zero_center()
img_prep.add_featurewise_stdnorm()

# Create extra synthetic training data by flipping, rotating and blurring the
# images on our data set.
img_aug = ImageAugmentation()
img_aug.add_random_flip_leftright()
img_aug.add_random_rotation(max_angle=25.)
img_aug.add_random_blur(sigma_max=3.)

# Define our network architecture:

# Input is a 32x32 image with 3 color channels (red, green and blue)
network = input_data(shape=[None, 32, 32, 3],
                     data_preprocessing=img_prep,
                     data_augmentation=img_aug)

# Step 1: Convolution
network = conv_2d(network, 32, 3, activation='relu')

# Step 2: Max pooling
network = max_pool_2d(network, 2)

# Step 3: Convolution again
network = conv_2d(network, 64, 3, activation='relu')

# Step 4: Convolution yet again
network = conv_2d(network, 64, 3, activation='relu')

# Step 5: Max pooling again
network = max_pool_2d(network, 2)

# Step 6: Fully-connected 512 node neural network
network = fully_connected(network, 512, activation='relu')

# Step 7: Dropout - throw away some data randomly during training to prevent over-fitting
network = dropout(network, 0.5)

# Step 8: Fully-connected neural network with two outputs (0=isn't a bird, 1=is a bird) to make the final prediction
network = fully_connected(network, 2, activation='softmax')

# Tell tflearn how we want to train the network
network = regression(network, optimizer='adam',
                     loss='categorical_crossentropy',
                     learning_rate=0.001)

# Wrap the network in a model object
model = tflearn.DNN(network, tensorboard_verbose=0, checkpoint_path='bird-classifier.tfl.ckpt')

# Train it! We'll do 100 training passes and monitor it as it goes.
model.fit(X, Y, n_epoch=100, shuffle=True, validation_set=(X_test, Y_test),
          show_metric=True, batch_size=96,
          snapshot_epoch=True,
          run_id='bird-classifier')

# Save model when training is complete to a file
model.save("bird-classifier.tfl")